agentflow

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升

它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作，利用新方法Flow-GRPO，在系统内部直接对其规划器智能体进行实时优化。

模型智能体斯坦福边学 agentflow 2025-10-24 12:11 12